JamPatoisNLI provides the first dataset for natural language inference in a creole language, Jamaican Patois. Many of the most-spoken low-resource languages are creoles. These languages commonly have a lexicon derived from a major world language and a distinctive grammar reflecting the languages of the original speakers and the process of language birth by creolization. This gives them a distinctive place in exploring the effectiveness of transfer from large monolingual or multilingual pretrained models. While our work, along with previous work, shows that transfer from these models to low-resource languages that are unrelated to languages in their training set is not very effective, we would expect stronger results from transfer to creoles. Indeed, our experiments show considerably better results from few-shot learning of JamPatoisNLI than for such unrelated languages, and help us begin to understand how the unique relationship between creoles and their high-resource base languages affect cross-lingual transfer. JamPatoisNLI, which consists of naturally-occurring premises and expert-written hypotheses, is a step towards steering research into a traditionally underserved language and a useful benchmark for understanding cross-lingual NLP.
translated by 谷歌翻译
DeepAngle is a machine learning-based method to determine the contact angles of different phases in the tomography images of porous materials. Measurement of angles in 3--D needs to be done within the surface perpendicular to the angle planes, and it could become inaccurate when dealing with the discretized space of the image voxels. A computationally intensive solution is to correlate and vectorize all surfaces using an adaptable grid, and then measure the angles within the desired planes. On the contrary, the present study provides a rapid and low-cost technique powered by deep learning to estimate the interfacial angles directly from images. DeepAngle is tested on both synthetic and realistic images against the direct measurement technique and found to improve the r-squared by 5 to 16% while lowering the computational cost 20 times. This rapid method is especially applicable for processing large tomography data and time-resolved images, which is computationally intensive. The developed code and the dataset are available at an open repository on GitHub (https://www.github.com/ArashRabbani/DeepAngle).
translated by 谷歌翻译
明显大小的时间变化(称为光曲线)是望远镜在长时间内捕获的感兴趣的观察统计。光曲线提供了空间域意识(SDA)目标(例如对象识别或姿势估计)作为潜在变量推理问题等目标的探索。与较高的精确仪器相比,来自货架上商业架子(COTS)摄像机的地面观测仍然很便宜,但是,有限的传感器可用性与嘈杂的观察结果相结合,可能会产生可能难以建模的gappy时间序列数据。这些外部因素混淆了对光曲线的自动开发,这使光曲线预测和外推成为应用的关键问题。传统上,使用基于扩散或基于示例的方法解决了图像或时间序列的完成问题。最近,由于学习复杂的非线性嵌入方面的经验成功,深度神经网络(DNNS)已成为首选工具。但是,DNN通常需要大量的培训数据,而这些数据不一定在查看单个卫星的光曲线的独特功能时可用。在本文中,我们提出了一种新的方法,可以使用高斯工艺(GPS)预测光曲线的缺失和未来数据点。 GPS是非线性概率模型,可推断后验分布在功能上并自然量化不确定性。但是,GP推理和培训的立方缩放是其在应用中采用的主要障碍。特别是,单个光曲线可以具有数十万个观测值,这远远超出了单个机器上常规GP的实际实现极限。因此,我们采用MUYGP,这是一种可扩展的框架,用于使用最近的邻居稀疏和局部交叉验证的GP模型的超参数估计。 muygps ...
translated by 谷歌翻译
许多在生物医学计算机科学研究中使用机器学习技术来提供准确的结果。但是,这些技术对于从实时医院饲料中提取的数据实时分析可能是不可行的。在该项目中,将不同的机器学习技术从各种来源进行比较,以找到一种不仅提供高精度,而且还提供低延迟和内存开销,以在现实世界中的医疗保健系统中使用。
translated by 谷歌翻译
与分析气相色谱法 - 质谱(GC -MS)数据相关的挑战很多。这些挑战中的许多挑战源于以下事实:电子电离可能使由于高度的分裂程度与分子离子信号的损失而难以恢复分子信息。使用GC-MS数据,通常在密切洗脱峰之间共享许多常见的片段离子,因此需要进行复杂的分析方法。其中一些方法是完全自动化的,但是对数据可以在分析过程中引入伪影的数据做出了一些假设。化学计量方法(例如多元曲线分辨率或平行因子分析)特别有吸引力,因为它们是灵活的,并且对数据的假设相对较少 - 理想情况下会导致伪像较少。这些方法确实需要专家用户干预来确定每个区域的最相关区域和适当数量的组件,即$ k $。需要选择自动化区域,以允许使用高级信号反卷积的色谱数据自动批处理处理。在这里,我们提出了一种新的方法,用于自动化,不靶心的感兴趣的选择区域,该方法是根据平方的比率和第二个单数值分解的比率来解释GC-MS数据中存在的多元信息,以选择感兴趣的区域。在色谱图上移动的窗口。假设第一个奇异值主要解释了信号,而第二个奇异值主要解释了噪声,则可以将这两个值之间的关系解释为Fisher比率的概率分布。通过研究该算法不再挑选已知包含信号的色谱区的浓度来测试算法的灵敏度。
translated by 谷歌翻译
在过去的三十年中,规划界一直探索了无数的数据驱动模型采集方法。这些范围是复杂的(例如,简单的设置操作到全面的重新汇总),方法论(例如,基于逻辑的基于逻辑与基于策划)和假设(例如,完全与部分可观察到)。该空间中不少于43个出版物,了解在新环境中应该或应该采用哪种方法可能是压倒性的。我们提出了动作模型采集空间的整体表征,并进一步引入了自动化动作模型采集的统一框架。我们已经重新实现了该地区的一些具有里程碑意义的方法,我们对所有技术的表征都深入了解了剩下的研究机会。即,那些无法解决技术的设置。
translated by 谷歌翻译
人行道挑战的数据科学(DSPC)旨在通过提供一个基准的数据集和代码来加速自动化视觉系统,以进行路面状况监测和评估,以创新和开发机器学习算法,这些算法已准备就绪,可以准备好练习。行业使用。比赛的第一版吸引了来自8个国家的22支球队。要求参与者自动检测和分类从多个来源捕获的图像中存在的不同类型的路面遇险,并且在不同的条件下。竞争是以数据为中心的:通过利用各种数据修改方法(例如清洁,标签和增强),团队的任务是提高预定义模型体系结构的准确性。开发了一个实时的在线评估系统,以根据F1分数对团队进行排名。排行榜的结果显示了机器在路面监控和评估中提高自动化的希望和挑战。本文总结了前5个团队的解决方案。这些团队提出了数据清洁,注释,增强和检测参数调整领域的创新。排名最高的团队的F1得分约为0.9。本文以对当前挑战效果很好的不同实验的综述以及对模型准确性的任何显着提高的审查进行了综述。
translated by 谷歌翻译
X射线微型计算机断层扫描(Micro-CT)已被广泛利用,以在地下多孔岩石中表征孔隙尺度几何形状。使用深度学习的超分辨率(SR)方法的最新进程允许在大型空间尺度上进行数字增强低分辨率(LR)图像,从而创建与高分辨率(HR)地理真理相当的SR图像。这避免了传统的解决方案和视野折衷。出色的问题是使用配对(已注册的)LR和HR数据,这些数据通常需要在此类方法的训练步骤中,但难以获得。在这项工作中,我们严格比较两种不同的最先进的SR深度学习技术,使用两者和未配对数据,具有类似于类似的地面真理数据。第一方法需要配对的图像来训练卷积神经网络(CNN),而第二种方法使用未配对的图像来训练生成的对抗网络(GaN)。使用具有复杂的微孔纹理的微型CT碳酸盐岩样品进行比较两种方法。我们实现了基于图像的各种图像和数值验证和实验验证,以定量评估两种方法的物理精度和敏感性。我们的定量结果表明,未配对GaN方法可以将超分辨率图像重建为精确,如配对的CNN方法,具有可比的训练时间和数据集要求。这将使用未配对的深度学习方法解除微型CT图像增强的新应用;数据处理阶段不再需要图像注册。来自数据存储平台的解耦图像可以更有效地利用用于培训SR数字岩体应用的网络。这为异构多孔介质中的多尺度流模拟各种应用开辟了新的途径。
translated by 谷歌翻译
糖尿病足溃疡分类系统使用伤口感染(伤口内的细菌)和缺血(限制血供给)作为重要的临床指标治疗和预测伤口愈合。研究使用自动化计算机化方法在糖尿病足伤中使用自动化计算机化方法的使用和缺血的使用是有限的,这是有限的,因为存在的公开可用数据集和严重数据不平衡存在。糖尿病脚溃疡挑战2021提供了一种具有更大量数据集的参与者,其总共包括15,683只糖尿病足溃疡贴剂,用于训练5,734,用于测试,额外的3,994个未标记的贴片,以促进半监督和弱的发展 - 监督深度学习技巧。本文提供了对糖尿病足溃疡攻击2021中使用的方法的评估,并总结了从每个网络获得的结果。最佳性能的网络是前3种型号的结果的集合,宏观平均F1分数为0.6307。
translated by 谷歌翻译
近年来,美国全国化(美国)的城市化涨幅需要城市规划师和运输工程师,为大都市地区的居民提供的运输服务更加考虑。这迫使运输当局通过改进的技术和增加的服务质量来提供更好,更可靠的公共交通方式。这些改进可以通过识别和理解影响城市公共交通需求的因素来实现。可以影响城市公共交通需求的常见因素可以是内部和/或外部因素。内部因素包括过境票价,服务头路和旅行时间等政策措施。外部因素可以包括地理,社会经济和公路设施特征。在交通供需和需求之间存在固有的同时性,因此应进行两级最小二乘(2SLS)回归建模程序,以预测城市过境供求。因此,应开发两个多元线性回归模型:一个以预测运输供应和第二个以预测运输需求。结果发现,服务区域密度,每次旅行的总成本,以及最大服务中运营的平均车辆数量可用于预测运输供应,表示为车辆收入时间。此外,估计的车辆收入时间和每次旅行的总平均票价可用于预测运输需求,表示为未解释的乘客旅行。诸如各个交通机构周围区域的社会经济信息等其他数据以及各个传输系统的旅行时间信息将有助于改善开发的模型。
translated by 谷歌翻译